3D-RFT: Ajuste fino por refuerzo para comprensión de escenas 3D en video
Descubre cómo 3D-RFT revoluciona la comprensión de escenas 3D en video usando refuerzo fino con recompensas verificables, superando modelos más grandes.
Descubre cómo 3D-RFT revoluciona la comprensión de escenas 3D en video usando refuerzo fino con recompensas verificables, superando modelos más grandes.
AccioScene genera escenas 3D interiores realistas a partir de texto usando difusión de grafos y críticas interactivas.
Descubre cómo SceneConductor genera escenas 3D completas a partir de una sola imagen usando orquestación multi-agente. Mayor precisión y realismo.
SCOUT permite que robots entiendan su entorno en tiempo real, combinando recorrido activo y gráficos de escenas 3D con incertidumbre. Aprende más.
Native3D revoluciona la generación de escenas 3D con modelado unificado de malla y textura. Olvídate de representaciones 2D y obtén mayor realismo y flexibilidad de edición.
Descubre PERSIST: modelo de mundo con escenas 3D latentes que genera mundos coherentes con memoria espacial persistente y control geométrico.
Descubre cómo KeyVT optimiza la selección de vistas y tokens para responder preguntas sobre escenas 3D sin entrenamiento, superando a métodos existentes.
Los VLMs son buenos en razonamiento espacial pero fallan en interacciones multiturno. SpatialAct revela la brecha entre percepción y acción en 3D.